Phân loại đa nhãn là gì? Các nghiên cứu khoa học liên quan

Phân loại đa nhãn là bài toán học máy cho phép mỗi mẫu dữ liệu được gán đồng thời nhiều nhãn, phản ánh tính chất hoặc đặc điểm đa chiều của đối tượng. Khác với phân loại đơn nhãn, phương pháp này xử lý sự phụ thuộc giữa các nhãn và áp dụng hiệu quả trong văn bản, y học, thị giác và hệ gợi ý.

Định nghĩa bệnh sinh

Bệnh sinh (pathogenesis) là quá trình mô tả các cơ chế dẫn đến sự hình thành, tiến triển và biểu hiện lâm sàng của một bệnh. Đây là lĩnh vực trung tâm trong y học bệnh lý, kết nối chặt chẽ giữa nguyên nhân gây bệnh và biểu hiện cụ thể ở người bệnh. Không giống như các định nghĩa chung chung, bệnh sinh tập trung vào các tiến trình sinh học cụ thể, thường mang tính phân tử và tế bào, để giải thích vì sao và bằng cách nào một bệnh xuất hiện và phát triển.

Việc phân tích bệnh sinh đòi hỏi hiểu biết sâu về các hệ thống sinh lý bình thường và các cơ chế bệnh lý khi hệ thống này bị rối loạn. Ví dụ, trong viêm khớp dạng thấp, quá trình bệnh sinh bao gồm hoạt hóa không kiểm soát của tế bào miễn dịch, dẫn đến viêm mãn tính tại khớp. Đó không chỉ là một phản ứng viêm đơn giản, mà là một chuỗi các tín hiệu sinh học kéo dài và mất cân bằng, dẫn đến tổn thương mô.

Khái niệm bệnh sinh cũng có thể được mở rộng để bao quát cả diễn biến tự nhiên của bệnh qua thời gian: từ giai đoạn tiền triệu (không triệu chứng), đến thời kỳ cấp tính, bán cấp hoặc mạn tính. Mỗi giai đoạn đều có các đặc điểm bệnh sinh riêng biệt cần được nhận diện để can thiệp hiệu quả.

Phân biệt bệnh sinh với các khái niệm liên quan

Bệnh sinh thường bị nhầm lẫn với các khái niệm khác trong y học như nguyên nhân bệnh học (etiology) hay bệnh học mô tả (pathology). Mặc dù có liên quan chặt chẽ, nhưng chúng không đồng nhất. Trong khi nguyên nhân bệnh học trả lời câu hỏi “tại sao bệnh xảy ra”, thì bệnh sinh trả lời “bệnh xảy ra như thế nào”.

Bệnh học mô tả lại tập trung vào biểu hiện giải phẫu và mô học của tổn thương. Ví dụ, trong nhồi máu cơ tim, nguyên nhân có thể là huyết khối làm tắc động mạch vành; bệnh sinh là quá trình thiếu máu cục bộ và hoại tử tế bào cơ tim do mất oxy; còn bệnh học mô tả liên quan đến hình ảnh mô học của vùng cơ tim bị hoại tử.

Bảng so sánh dưới đây giúp làm rõ hơn các khác biệt:

Thuật ngữ Ý nghĩa Câu hỏi chính
Etiology (Nguyên nhân bệnh học) Yếu tố khởi phát bệnh (virus, vi khuẩn, đột biến gen,...) Tại sao?
Pathogenesis (Bệnh sinh) Chuỗi cơ chế dẫn đến bệnh từ nguyên nhân đến biểu hiện Như thế nào?
Pathology (Bệnh học mô tả) Biểu hiện hình thái, mô học hoặc chức năng của tổn thương Kết quả là gì?

Các giai đoạn chính trong quá trình bệnh sinh

Quá trình bệnh sinh không xảy ra đột ngột mà diễn tiến theo các giai đoạn rõ ràng. Mỗi giai đoạn phản ánh một mức độ sâu hơn của rối loạn sinh học. Việc nhận diện đúng giai đoạn giúp bác sĩ can thiệp kịp thời và chính xác.

Các giai đoạn chính thường bao gồm:

  • Giai đoạn khởi phát: là thời điểm ban đầu khi cơ thể tiếp xúc với tác nhân bệnh học như vi khuẩn, virus, độc chất, hoặc yếu tố tự miễn.
  • Giai đoạn tiến triển: là giai đoạn các rối loạn sinh học bắt đầu lan rộng, các quá trình viêm, chết tế bào, mất cân bằng nội môi bắt đầu xuất hiện và khuếch đại.
  • Giai đoạn biểu hiện lâm sàng: là lúc bệnh nhân bắt đầu có triệu chứng rõ rệt như đau, sốt, ho, mệt mỏi hoặc tổn thương cơ quan cụ thể.

Ở một số bệnh như ung thư hoặc bệnh lý tự miễn, các giai đoạn có thể kéo dài nhiều năm mà không có triệu chứng rõ rệt, gây khó khăn trong chẩn đoán sớm.

Vai trò của yếu tố di truyền và môi trường

Yếu tố di truyền và môi trường cùng tương tác để ảnh hưởng đến quá trình bệnh sinh. Một người có thể mang đột biến gen nhưng không bao giờ biểu hiện bệnh nếu không tiếp xúc với yếu tố môi trường phù hợp, và ngược lại.

Các yếu tố di truyền đóng vai trò trong:

  • Đột biến gen mã hóa enzyme, receptor, hoặc yếu tố tăng trưởng.
  • Thay đổi biểu sinh làm biến đổi biểu hiện gen mà không thay đổi trình tự DNA.
  • Thiếu hụt enzyme hoặc protein cấu trúc gây rối loạn chuyển hóa.

Yếu tố môi trường lại bao gồm:

  • Vi khuẩn, virus, ký sinh trùng.
  • Chế độ ăn, hút thuốc, ô nhiễm không khí.
  • Tiếp xúc với chất độc (ví dụ: amiăng, kim loại nặng).

Sự tương tác giữa gen và môi trường là trọng tâm của nghiên cứu bệnh sinh hiện đại. Một ví dụ điển hình là bệnh phổi tắc nghẽn mạn tính (COPD), nơi cả yếu tố hút thuốc (môi trường) và thiếu hụt alpha-1 antitrypsin (di truyền) đều ảnh hưởng mạnh đến diễn tiến bệnh.

Hàm mất mát trong phân loại đa nhãn

Hàm mất mát là thành phần then chốt trong huấn luyện mô hình phân loại đa nhãn. Hàm phổ biến nhất là Binary Cross-Entropy (BCE), vì nó cho phép mô hình đánh giá xác suất độc lập cho từng nhãn, không giả định phân bố xác suất tổng là 1 như trong softmax.

Hàm BCE có công thức như sau:

LBCE=1Ni=1Nj=1L[yijlogy^ij+(1yij)log(1y^ij)] \mathcal{L}_{BCE} = -\frac{1}{N} \sum_{i=1}^N \sum_{j=1}^L \left[ y_{ij} \log \hat{y}_{ij} + (1 - y_{ij}) \log (1 - \hat{y}_{ij}) \right]

Trong đó, NN là số lượng mẫu trong tập huấn luyện, LL là số nhãn, yijy_{ij} là giá trị nhãn thật và y^ij\hat{y}_{ij} là xác suất dự đoán cho nhãn jj của mẫu ii. Mỗi cặp y,y^y, \hat{y} được đánh giá riêng biệt, nhờ đó phù hợp với tình huống một mẫu có nhiều nhãn hoặc không có nhãn nào.

Khi tập dữ liệu bị mất cân bằng nhãn nghiêm trọng, BCE có thể bị chi phối bởi các nhãn phổ biến. Để khắc phục, focal loss được áp dụng để giảm trọng số của các mẫu dễ phân loại và tập trung vào các nhãn khó, đặc biệt hữu ích trong các ứng dụng như phát hiện bệnh hiếm hoặc nhận diện đa thực thể trong ảnh.

Đánh giá mô hình phân loại đa nhãn

Khác với phân loại đơn nhãn, việc đánh giá mô hình đa nhãn yêu cầu sử dụng các chỉ số phản ánh hiệu suất theo từng nhãn và trên toàn bộ tập hợp nhãn. Các chỉ số này được phân thành hai loại chính: đánh giá theo từng nhãn (macro) và đánh giá tổng hợp toàn bộ (micro).

  • Hamming Loss: Tỷ lệ nhãn được dự đoán sai, tính trung bình theo tất cả các nhãn.
  • Subset Accuracy: Tỷ lệ mẫu mà toàn bộ tập nhãn được dự đoán chính xác 100% (nghiêm ngặt).
  • Macro F1 / Micro F1: Macro tính trung bình F1-score của từng nhãn; Micro tính trung bình theo tổng số TP/FP/FN.

Ví dụ, Macro F1 cho phép đánh giá công bằng giữa các nhãn, đặc biệt phù hợp khi có sự mất cân bằng dữ liệu. Trong khi đó, Micro F1 phản ánh độ chính xác tổng thể, dễ bị chi phối bởi nhãn phổ biến. Do đó, nên kết hợp nhiều chỉ số để có cái nhìn đầy đủ.

Chỉ sốLoạiÝ nghĩa
Hamming LossMicroTỷ lệ sai trên mỗi nhãn
Subset AccuracyExact matchYêu cầu toàn bộ nhãn đúng
Macro F1MacroTrung bình F1 từng nhãn, phù hợp nhãn hiếm
Micro F1MicroĐánh giá theo TP/FP/FN toàn cục

Ứng dụng thực tế

Phân loại đa nhãn xuất hiện nhiều trong các lĩnh vực dữ liệu phi cấu trúc. Trong phân loại văn bản, mỗi tài liệu có thể đồng thời mang nhiều chủ đề như "giáo dục", "kinh tế", "xã hội". Việc gán nhãn đa chiều giúp cải thiện khả năng truy xuất thông tin và gợi ý nội dung.

Trong y học, một bệnh nhân có thể mắc nhiều bệnh lý đồng thời. Mô hình học máy đa nhãn cho phép hỗ trợ chẩn đoán, đề xuất phác đồ điều trị, và phát hiện biến chứng dựa trên hình ảnh X-quang, hồ sơ bệnh án hoặc tín hiệu sinh học. Các nghiên cứu tại NCBI cho thấy deep learning đa nhãn đạt độ chính xác trên 90% trong chẩn đoán phổi.

Trong thị giác máy tính, các mô hình như YOLO hoặc EfficientNet được mở rộng để gán nhãn đa đối tượng trong ảnh. Điều này ứng dụng trong ô tô tự hành, an ninh, kiểm tra công nghiệp và phân tích ảnh vệ tinh.

  • Phân loại văn bản: tag nhiều chủ đề.
  • Y học: hỗ trợ chẩn đoán bệnh đa triệu chứng.
  • Thị giác máy tính: nhận diện nhiều đối tượng.
  • Âm thanh: phân loại cảm xúc, tác nhân môi trường.

Thư viện và công cụ hỗ trợ

Nhiều thư viện mã nguồn mở và thương mại đã hỗ trợ trực tiếp các thuật toán phân loại đa nhãn hoặc xây dựng dễ dàng các kiến trúc tùy chỉnh. Trong Python, scikit-multilearn mở rộng scikit-learn với các mô hình như BR, CC, LP cùng API quen thuộc.

Trong lĩnh vực NLP, Hugging Face Transformers cho phép fine-tune BERT hoặc RoBERTa với đầu ra sigmoid và hàm BCE, hỗ trợ học sâu đa nhãn qua vài dòng mã. Kết hợp với datasets từ Hugging Face Datasets, quá trình huấn luyện được tối ưu hóa cho GPU/TPU.

Với PyTorch và TensorFlow, việc xây dựng mạng nơ-ron đầu ra sigmoid và áp dụng BCE loss được hỗ trợ trực tiếp, dễ dàng thêm các thành phần nâng cao như attention, label correlation hoặc conditional decoding.

  • scikit-multilearn: API mở rộng cho BR, CC, LP.
  • Transformers: NLP đa nhãn với BERT, RoBERTa.
  • Keras/PyTorch: Xây dựng mô hình custom với sigmoid, BCE, focal loss.

Xu hướng nghiên cứu và phát triển

Xu hướng mới trong phân loại đa nhãn tập trung vào việc học representation phụ thuộc vào nhãn (label-aware) và khai thác tri thức giữa các nhãn. Các kỹ thuật như label attention, label-wise encoder và embedding nhãn giúp mô hình hiểu được mối liên hệ ngữ nghĩa giữa các nhãn.

Học không giám sát và zero-shot learning cũng đang được tích hợp vào các mô hình phân loại đa nhãn để giải quyết bài toán nhãn hiếm hoặc không có dữ liệu gắn nhãn. Với pre-trained models, mô hình có thể dự đoán nhãn chưa từng thấy trong huấn luyện bằng cách ánh xạ embedding của nhãn và đầu ra mạng.

Kết hợp học đa nhiệm (multi-task learning) và huấn luyện đa mục tiêu (multi-objective optimization) giúp chia sẻ đặc trưng giữa các đầu ra nhãn, giảm hiện tượng overfitting và cải thiện hiệu suất. Ngoài ra, mô hình hoán vị bất biến (permutation invariant models) hỗ trợ xử lý tập nhãn đầu ra như tập hợp thay vì chuỗi.

  • Label attention và embedding để học mối quan hệ nhãn.
  • Zero-shot multi-label: dự đoán nhãn chưa thấy.
  • Multi-task + multi-label fusion.
  • Explainable ML cho đa nhãn: khai thác SHAP, LIME.

Tài liệu tham khảo

  • Tsoumakas, G., & Katakis, I. (2007). “Multi-label Classification: An Overview,” International Journal of Data Warehousing and Mining, 3(3): 1–13.
  • Zhang, M., & Zhou, Z. (2014). “A Review on Multi-Label Learning Algorithms,” IEEE Transactions on Knowledge and Data Engineering, 26(8): 1819–1837.
  • Hugging Face. (2023). “Transformers for Multi-label Classification.” Truy cập tại huggingface.co.
  • Charte, F., Rivera, A. J., & del Jesus, M. J. (2015). MLC Toolbox: Matlab/Octave Library for Multi-Label Classification.
  • Rajkomar, A. et al. (2020). “Scalable and Accurate Deep Learning for Medical Diagnosis,” NPJ Digital Medicine, 3(1): 1–10.

Các bài báo, nghiên cứu, công bố khoa học về chủ đề phân loại đa nhãn:

Một phân loại học về cây họ Đậu (Leguminosae) dựa trên phân tích gen plastid matK giải quyết nhiều nhánh con được hỗ trợ tốt trong họ Dịch bởi AI
American Journal of Botany - Tập 91 Số 11 - Trang 1846-1862 - 2004
Phân tích hệ phát sinh chủng loại của 330 trình tự gen plastid matK, đại diện cho 235 giống từ 37 trên 39 tộc, và bốn taxa ngoài nhóm từ eurosids I hỗ trợ nhiều nhánh con được phân giải rõ ràng trong họ Đậu (Leguminosae). Những kết quả này nói chung nhất quán với những gì được rút ra từ dữ liệu trình tự plastid khác (rbcL... hiện toàn bộ
Phả hệ và phân loại họ Đậu trong thế kỷ 21: Tiến bộ, triển vọng và bài học cho các nhánh thực vật giàu loài khác Dịch bởi AI
Taxon - Tập 62 Số 2 - Trang 217-248 - 2013
Tóm tắtHọ Đậu, là họ thực vật có hoa lớn thứ ba, có sự phân bố toàn cầu và đóng vai trò quan trọng về sinh thái cũng như kinh tế. Chúng tôi xem xét cách mà cộng đồng nghiên cứu phân loại đậu có thể hợp tác để tạo ra một ước lượng phả hệ toàn diện cho khoảng 751 chi và khoảng 19.500 loài đậu, sau đó chuyển đổi nó thành một hệ thống phân loại dựa trên phả hệ. Chúng t...... hiện toàn bộ
Các tính chất quy định trong chương trình phân loại C*-đại số có thể tách rời và có thể chấp nhận Dịch bởi AI
Bulletin of the American Mathematical Society - Tập 45 Số 2 - Trang 229-245

Chúng tôi báo cáo về tiến trình gần đây trong chương trình phân loại các đại số C^* có thể tách rời và có thể chấp nhận. Chúng tôi nhấn mạnh vai trò ...

... hiện toàn bộ
Nhận dạng danh tính con người dựa trên mống mắt với các phương pháp học máy và biến đổi Fourier nhanh rời rạc Dịch bởi AI
Innovations in Systems and Software Engineering - Tập 17 - Trang 309-317 - 2021
Một trong những mô-đun quan trọng nhất của hệ thống máy tính là mô-đun chịu trách nhiệm về an toàn người dùng. Đã được chứng minh rằng mật khẩu và tên đăng nhập đơn giản không thể đảm bảo hiệu quả cao và dễ bị hacker lấy cắp. Một lựa chọn thay thế nổi tiếng là nhận diện danh tính dựa trên sinh trắc học. Trong những năm gần đây, sự quan tâm hơn đến mống mắt như một đặc điểm sinh trắc học đã được qu...... hiện toàn bộ
#nhận diện sinh trắc học #mống mắt #biến đổi Fourier nhanh rời rạc #học máy #phân loại danh tính
Tình trạng thiếu phân loại ở bệnh nhân chấn thương cao tuổi trong chăm sóc trước khi nhập viện: một đánh giá hệ thống Dịch bởi AI
European Geriatric Medicine - - 2021
Tóm tắt Nền tảng Có ý kiến cho rằng nhiều bệnh nhân chấn thương cao tuổi bị phân loại không chính xác trong quá trình chăm sóc trước khi nhập viện, điều này có thể ảnh hưởng tiêu cực đến kết quả điều trị của họ. Đánh giá hệ thống này nhằm mục đích đánh giá tỷ lệ thiếu phân loại ở bệnh nhân chấn thươ...... hiện toàn bộ
#chấn thương cao tuổi #phân loại bệnh nhân #chăm sóc trước khi nhập viện #đánh giá hệ thống.
Một Cách Tiếp Cận Tập Học Đối Với Phân Loại Đa Dạng: Bằng Chứng Cho Một Lý Thuyết Về Các Cấp Độ Nhận Thức Dịch bởi AI
International Journal of Behavioral Development - Tập 3 Số 4 - Trang 409-422 - 1980
Tám mươi trẻ em từ 3 đến 6 tuổi đã tham gia khóa học tập huấn về phân loại dưới một trong hai điều kiện: điều kiện một thuộc tính, trong đó các ô của ma trận chỉ có thể được lấp đầy bằng cách xem xét chỉ một chiều, hoặc điều kiện hai thuộc tính, trong đó các ô của cùng một ma trận phải được lấp đầy bằng cách xem xét cả hai chiều. Tất cả các nhóm tuổi đều học được nhiệm vụ một thuộc tính, ...... hiện toàn bộ
Thu thập biomarker chẩn đoán xác định các phân nhóm bệnh nhân hematuria có nguy cơ cao: Khai thác sự không đồng nhất trong dữ liệu biomarker quy mô lớn Dịch bởi AI
BMC Medicine - - 2013
Tóm tắt Đặt vấn đề Phân loại nguy cơ không hiệu quả có thể làm chậm trễ việc chẩn đoán bệnh nghiêm trọng ở những bệnh nhân có hematuria. Chúng tôi đã áp dụng phương pháp sinh học hệ thống để phân tích các dữ liệu lâm sàng, nhân khẩu học và đo lường biomarker (n = 29) thu thập từ 157 bệnh nhân có ...... hiện toàn bộ
#hematuria #ung thư bàng quang #biomarker #phân loại nguy cơ #sinh học hệ thống
Kết quả thụ tinh ống nghệm của nhóm bệnh nhân “tiên lượng thấp” theo phân loại POSEIDON
Tạp chí Phụ Sản - Tập 15 Số 4 - Trang 69 - 75 - 2018
Mục tiêu: Xác định tỷ lệ thai diễn tiến cộng dồn khi điều trị thụ tinh ống nghiệm của các bệnh nhân tiên lượng thấp theo phân loại POSEIDON. Đối tượng và phương pháp nghiên cứu: Nghiên cứu đoàn hệ hồi cứu thực hiện trên các bệnh nhân thụ tinh ống nghiệm được chẩn đoán là tiên lượng thấp theo phân loại POSEIDON (I, II, III, IV), từ tháng 01/2014 đến tháng 12/2016 tại IVFMD, Bệnh viện Mỹ Đức. Các t...... hiện toàn bộ
#phân loại POSEIDON #đáp ứng kém #tiên lượng thấp #tỷ lệ thai diễn tiến #thụ tinh ống nghiệm.
Kết quả thụ tinh ống nghệm của nhóm bệnh nhân “tiên lượng thấp” theo phân loại POSEIDON
Tạp chí Phụ Sản - Tập 17 Số 1 - Trang 68 - 74 - 2019
Mục tiêu: Xác định tỷ lệ thai diễn tiến cộng dồn khi điều trị thụ tinh ống nghiệm của các bệnh nhân tiên lượng thấp theo phân loại POSEIDON. Đối tượng và phương pháp nghiên cứu: Nghiên cứu đoàn hệ hồi cứu thực hiện trên các bệnh nhân thụ tinh ống nghiệm được chẩn đoán là tiên lượng thấp theo phân loại POSEIDON (I, II, III, IV), từ tháng 01/2014 đến tháng 12/2016 tại IVFMD, Bệnh viện Mỹ Đức. Các t...... hiện toàn bộ
#phân loại POSEIDON #đáp ứng kém #tiên lượng thấp #tỷ lệ thai diễn tiến #thụ tinh ống nghiệm.
GIÁ TRỊ CỦA THANG ĐIỂM EU-TIRADS 2017 VÀ ACR-TIRADS 2017 TRONG ĐÁNH GIÁ NHÂN TUYẾN GIÁP
Tạp chí Điện quang & Y học hạt nhân Việt Nam - - 2022
TÓM TẮTMục tiêu: Mô tả đặc điểm hình ảnh các tổn thương dạng nốt tuyến giáp theo phân loại EU TIRADS 2017 và ACR TIRADS 2017. So sánh giá trị chẩn đoán của EU TIRADS 2017 và ACR TIRADS 2017 có đối chiếu với kết quả tế bào học. Đối tượng và phương pháp nghiên cứu: nghiên cứu mô tả cắt ngang trên những bệnh nhân có nhân tuyến giáp được siêu âm chẩn đoán và làm FNA tại trung tâm Điện Quang, Bệnh việ...... hiện toàn bộ
#siêu âm tuyến giáp #phân loại EU-TIRADS #ACR-TIRADS
Tổng số: 102   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 10